检索结果

Select

1. 基于改进孪生网络结构的相似法律案例检索研究

李兰君, 周俊生, 顾颜慧, 曲维光

北京大学学报自然科学版 2019, 55 (1): 84-90. DOI: 10.13209/j.0479-8023.2018.059

摘要（1138）

HTML

PDF（pc）（505KB）（411）

针对现有的基于孪生网络结构的文档相似度计算方法大多将整个文档看成模型的输入序列, 易导致数据稀疏的问题, 提出利用层级注意力机制来改进孪生网络结构中的文档表示。针对基于层级注意力机制的孪生网络计算模型在输入时有可能忽略文档中重要句子的问题, 进一步提出一种引入文档内容压缩的两步骤文档相似度计算方法。利用开发的法律案例文档相似度标注数据集进行实验, 结果表明所提方法明显优于基于长短期记忆模型的孪生网络计算模型。

相关文章 | 多维度评价 | 评论（0）

Select

2. 基于组合神经网络的语义省略“的”字结构识别

侍冰清, 戴茹冰, 曲维光, 顾彦慧, 周俊生, 李斌, 徐戈, 史胜旺

北京大学学报自然科学版 2019, 55 (1): 75-83. DOI: 10.13209/j.0479-8023.2018.058

摘要（769）

HTML

PDF（pc）（893KB）（148）

针对语义省略“的”字结构识别任务, 提出一种基于组合神经网络的识别方法。利用词语和词性, 通过双向LSTM (long short-term memory)神经网络, 学习“的”字结构深层次的语义语法表示。通过Max-pooling层和基于GRU(gated recurrent unit)的多注意力层, 捕获“的”字结构的省略特征, 完成语义省略“的”字结构识别任务。实验结果表明, 所提模型在CTB8.0(Chinese Treebank 8.0)语料中, 能够有效地识别语义省略的“的”字结构, F1值达到96.67%。

相关文章 | 多维度评价 | 评论（0）

Select

3. 基于空间短文本对象的检索策略

顾彦慧, 王道胜, 王永根, 龙云飞, 蒋锁良, 周俊生, 曲维光

北京大学学报（自然科学版） 2016, 52 (1): 120-126. DOI: 10.13209/j.0479-8023.2016.008

摘要（846）

HTML

PDF（pc）（469KB）（1142）

针对传统空间文本检索策略中的效率和有效性问题, 对如何从给定的空间文本对象集合中快速有效地检索出top-k个近似结果进行研究。基于一个空间检索的通用框架, 提出一种基于空间文本对象的快速策略, 用于满足用户对效率与有效性的要求。实验结果证明该策略优于现有方法。

相关文章 | 多维度评价 | 评论（0）

Select

4. 基于《现代汉语语义词典》的未登录词语义预测研究

尚芬芬, 顾彦慧, 戴茹冰, 李斌, 周俊生, 曲维光

北京大学学报（自然科学版） 2016, 52 (1): 10-16. DOI: 10.13209/j.0479-8023.2016.009

摘要（1705）

HTML

PDF（pc）（396KB）（818）

基于《现代汉语语义词典》, 首先建立不同语义层次的词典, 根据词典分别构建模型并进行语义预测, 然后将各个模型进行集成, 通过集成模型再对未登录词进行语义预测, 得到较好的预测性能。利用预测模型对2000年《人民日报》语料进行未登录词语义预测和标注, 最终得到带有未登录词语义义项标注的语料资源。

相关文章 | 多维度评价 | 评论（0）

Select

5. 多策略同义词获取方法研究

宋文杰,顾彦慧,周俊生,孙玉杰,严杰,曲维光

北京大学学报（自然科学版）

摘要（829）

PDF（pc）（881KB）（570）

提出一种多策略同义词获取方法, 一方面利用《同义词词林》、《中文概念词典》等现有语义词典中蕴含的同义关系获取同义词, 另一方面根据百度百科信息框(Bdbk)中特征词和汉典网(Zdic)中HTML标记获取同义词, 同时采用DIPRE自动获取模式的方法, 从百度百科文本中发现置信度较高的模式和同义关系。实验结果表明, 所提方法在NLP&CC 2012同义词评测数据集中取得较好结果。利用该方法, 以《现代汉语语法信息词典》名词部分为目标, 构建一部同义词词典并进行人工校对, 为《现代汉语语法信息词典》构建较为完善的语义关系体系做出尝试。

相关文章 | 多维度评价 | 评论（0）